# -*- coding: utf-8 -*-

import sys
import re
def printf(s):
	print s.decode('utf8').encode('gbk')

s=open(r'data/1255010203.html').read()
s=s.decode('gbk').encode('utf8')
s=s.replace('\n','')

r=r'''学号.+?\>.+?\>(.+?)\<.+?
姓名.+?\>.+?\>(.+?)\<.+?
身份证号.+?\>.+?\>&nbsp;(.+?)\<.+?
户口详细地址.+?\>.+?\>&nbsp;(.+?)\<.+?
家庭电话.+?\>.+?\>&nbsp;(.+?)\<.+?
宿舍地址.+?\>.+?\>&nbsp;(.+?)\<.+?
宿舍电话.+?\>.+?\>&nbsp;(.+?)\<.+?
手机号.+?\>.+?\>(.+?)\<.+?
'''
l=re.compile(r,re.X).findall(s)
printf(str(l))
printf(l[0][0])
printf(l[0][1])
printf(l[0][2])
printf(l[0][3])
printf(l[0][4])
printf(l[0][5])
printf(l[0][6])
printf(l[0][7])

